LIME (local interpretable model-agnostic explanations)
local interpretable model-agnostic explanations
機械學習モデルは廣く普及してゐるにもかかはらず、その內部動作は依然として「ブラックボックス」狀態にある。豫測結果の根據を理解することは、特にその豫測に基づいて行動を決定しようとする場合や、新たなモデルを導入するか否かを判斷する際に極めて重要である。このやうな理解はモデルの特性を把握する上で有益であり、信賴性の低いモデルや豫測を信賴できるものへと改善するための手がかりを提供する。本硏究では、豫測結果を解釋可能かつ忠實に說明する新たな手法「LIME (local interpretable model-agnostic explanations)」を提案する。この手法は、豫測値周辺において解釋可能なモデルを局所的に學習することで實現される。さらに、代表的な個別豫測とその說明を冗長性なく提示することでモデルを說明する手法も提案する。この問題設定を部分モジュラー最適化問題として定式化した。テキスト分類モデル (例 : random forest) や畫像分類モデル (例 : neural network) など、多樣なモデルに對してこれらの手法の汎用性を實證する。シミュレーション實驗と人閒被驗者を對象とした實驗を通じて、豫測の信賴性判斷、モデル選擇、信賴性の低い分類器の改善、分類器の信賴性缺如の原因特定など、信賴性が要求される樣々なシナリオにおいて說明手法の有用性を實證する。